Modèles de mélanges topologiques pour la classification de données catégorielles et mixtes

نویسندگان

  • Nicoleta Rogovschi
  • Mustapha Lebbah
  • Younès Bennani
چکیده

Résumé. Cet article présente une méthode basée sur les cartes auto-organisatrices probabilistes dédiées à la classification non supervisée et la visualisation de données catégorielles et des données mixtes contenant des composantes quantitatives et binaires. Pour chacun de ces types de données, nous proposons un formalisme probabiliste dans lequel les unités de la carte topologique sont représentées par un modèle de mélanges de loi de Bernoulli, dans le cas des données binaires et par un modèle de mélanges de lois de Bernoulli et Gaussienne dans le cas des données mixtes. Dans cette étude, la carte topologique est vue comme un modèle génératif et est revisitée dans un formalisme probabiliste de modèles de mélanges. L’idée de base de ce travail repose sur le principe de la conservation de la structure initiale des données en utilisant le formalisme probabiliste. Les modèles de mélanges proposés ici vérifient ce principe et fournissent des résultats directement interprétables par rapport aux données initiales, qu’elles soient simplement binaires ou mixtes. L’apprentissage consiste alors à estimer les paramètres du modèle en maximisant la vraisemblance des données d’apprentissage. L’algorithme d’apprentissage (PrMTM :Probabilistic Mixed Topological Map) que nous proposons est basé sur l’algorithme EM (Estimation-Maximisation). Nous avons montré que l’algorithme à base de modèles de mélanges fournit différentes informations pertinentes qui peuvent être utilisées dans des applications pratiques. Nos approches ont été validées sur différentes bases de données réelles et fournissent des résultats prometteurs.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Classification topologique probabiliste pour des données catégorielles

Cet article présente une carte auto-organisatrice probabiliste pour l’analyse et la classification topologique des données catégorielles. En considérant un modèle de mélanges parcimonieux nous introduisons une nouvelle carte auto-organisatrice (SOM) probabiliste. L’estimation des paramètres de notre modèle est réalisée à l’aide de l’algorithme EM classique. Contrairement à SOM, l’algorithme d’a...

متن کامل

OSOM : un algorithme de construction de cartes topologiques recouvrantes

Résumé. Les modèles de classification recouvrante ont montré leur capacité à générer une organisation plus fidèle aux données tout en conservant la simplification attendue par une structuration en classes strictes. Par ailleurs les modèles neuronaux non-supervisés sont plébiscités lorsqu’il s’agit de visualiser la structure de classes. Nous proposons dans cette étude d’étendre les cartes auto-o...

متن کامل

Co-clustering de données mixtes à base des modèles de mélange

Résumé. La classification croisée (co-clustering) est une technique non supervisée qui permet d’extraire la structure sous-jacente existante entre les lignes et les colonnes d’une table de données sous forme de blocs. Plusieurs approches ont été étudiées et ont démontré leur capacité à extraire ce type de structure dans une table de données continues, binaires ou de contingence. Cependant, peu ...

متن کامل

Étude comparative de deux approches de classification recouvrante : Moc vs. Okm

Résumé. La classification recouvrante désigne les techniques de regroupements de données en classes pouvant s’intersecter. Particulièrement adaptés à des domaines d’application actuels (e.g. Recherche d’Information, Bioinformatique) quelques modèles théoriques de classification recouvrante ont été proposés très récemment parmi lesquels le modèle MOC (Banerjee et al. (2005a)) utilisant les modèl...

متن کامل

Classification des données catégorielles via la maximisation spectrale de la modularité

Résumé. Ce papier présente un algorithme spectrale pour maximiser le critère de la modularité étendu à la classification des données catégorielles. Il met en evidence la connexion formelle entre la maximisation de la modularité et la classification spectrale, il présente en particulier le problème de maximisation de la modularité sous forme d’un problème algèbrique de maximisation de la trace. ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2011